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基于 多 尺度 特征 融合 的 恶意 HTTP 请 求 检测 方法 


家 宏 ， 杨 振 国 ， 刘 文 印 
(广东 工业 大 学 计算 机 学 院 , 广州 510006) 


摘 要 : 针对 当前 网 络 环境 中 恶意 HTTP 请 求 攻击 泛滥 的 问题 ， 提 出 了 一 种 多 尺度 特征 融合 的 检测 方法 。 首 先 从 单 
词 级 和 字符 级 两 个 尺度 对 HTTP 请 求 进行 建 模 ， 然 后 使 用 卷 积 神经 网 络 提取 其 高 阶 语义 特征 ; 再 借助 多 尺度 特征 融 
合 技术 , 学 习 HTTP 请 求 的 多 尺度 公共 向 量 表示 ; 最 后 使 用 线性 分 类 器 进行 分 类 。 实验 结果 表明 该 方法 性 能 在 HTTP 
CSIC 2010 数据 集 和 WAF 真实 数据 集 上 优 于 现 有 方法 。 
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Multiscale feature fusion for malicious HITP request detection 


Wu Jiahong, Yang Zhenguo, Liu Wenyin 
(School of Computer Science, Guangdong University of Technology, Guangzhou 510006, China) 


Abstract: This paper proposed a multiscale feature fusion approach for malicious HTTP request detection. Firstly, it modeled 
the HTTP request in both word-level and character-level. Secondly, it extracted the high level sematic information in HTTP 
request by using a specially designed convolutional neural network (CNN) . Thirdly, it jointly learnt the multiscale 
representation for HTTP request with the help of multimodal learning techniques. Finally, it adopted a linear classifier for 
classification. Experiments on public HTTP CSIC 2010 dataset and WAF dataset show it has large improvement on the 
performance against existing state-of-the-art methods. 

Key words: malicious request detection; deep learning; feature fusion 


0 引言 习 算 法 相 较 于 基于 规则 、 基 于 统计 分 析 的 方法 有 一 定 的 提升 ， 
但 它们 的 缺点 在 于 需要 借助 大 量 专家 知识 ， 手 工 从 HTTP 请 
互联 网 、 移 动 互联 网 、 物 联网 的 快速 发 展 给 和 人们 带 来 便 。 求 中 提取 特征 ， 费 时 费力 。 
利 的 同时 ， 也 为 个 人 及 国家 安全 和 社会 稳定 带 来 新 的 挑战 。 近年 来 深度 学 习 技术 在 计算 机 视觉 、 自 然 语言 处 理 领域 
当前 ,针对 Web 系统 的 攻击 手段 层出不穷 , 给 广大 网 络 用 户 ” 成 果 显 著 ， 将 深度 学 习 技术 应 用 到 恶意 请 求 检 测 领 域 是 大 势 
和 企业 造成 巨大 经 济 损失 ， 成 为 社会 关注 的 热点 问题 之 一 。 所 趋 。 李 佳 等 人 外 提出 了 直接 将 HITP 请 求 字 符 转 换 为 ASCII 


| 


py 


+ 


如 何 快速 、 准确 地 监测 和 识别 Web 攻击 行为 的 关键 在 于 理解 ”编码 作为 其 向 量 表示 ， 同 时 结合 若干 统计 特征 ， 使 用 具有 混 
HTTP 请 求 内 容 ， 从 中 识别 出 恶意 HTTP 请 求 并 且 阻 止 其 运 合 结 构 的 多 层 神 经 网 络 进 行 分 类 的 方法 。Zhang 等 人 中 在 训 
行 。 练 过 程 中 通过 Embedding 层 学 习 HTTP 请 求 的 单词 级 向 量 表 

常见 的 恶意 请 求 检测 系统 和 方法 可 以 分 为 三 个 类 : 基于 示 ， 然 后 使 用 CNN 进行 分 类 检测 。Liang 等 人 中 首 先 使 用 
规则 ， 基 于 统计 分 析 ， 基 于 机 器 学 习 或 深度 学 习 。Denning[ ”LSTM 和 GRU 无 监督 地 学 习 正 常 HTTP 请 求 的 单词 级 特征 ， 


首先 提出 基于 专家 知识 的 入 侵 检 测 系 统 ， 这 种 技术 针对 已 知 ”然后 再 训练 一 个 用 于 分 类 的 多 层 感 知 机 。Liu 等 人 外 提出 了 基 
击 模式 ， 人 工 设 计 、 维 护 规则 库 和 策略 模板 。 对 于 常见 且 ”于 HTTP 请 求 字 符 级 向 量 表示 及 LSTM 的 端 到 端的 检测 方 
特征 突出 的 恶意 请 求 来 说 , 基于 规则 的 检测 方法 准确 率 较 高 ， 法 。 以 上 研究 只 使 用 了 HTTP 请 求 单 一 尺度 的 特征 ， 即 对 请 
面 对 新 型 攻击 模式 时 则 表现 不 佳 。Kriigel 等 人 中 提出 了 一 求 只 进行 单词 级 建 模 或 者 只 进行 字符 级 建 模 ， 并 没有 考虑 同 
种 检测 异常 网 络 流量 的 统计 处 理 单元 ， 更 具体 地 说 ， 基 于 请 。 时 使 用 多 个 尺度 的 特征 。 


求 类 型 、 请 求 长 度 、 请 求 内 容 的 分 布 等 三 个 统计 特征 来 计算 受到 Zhen 等 人 09 提 出 的 深度 有 监督 跨 模 态 检索 框架 的 
请 求 的 分 数 ， 系 统管 理 员 根据 此 分 数 设 置 闵 值 来 过 滤 恶 意 、 启发 ， 本 文 借鉴 多 模 态 学 习 技术 ， 利 用 多 模 态 视 角 来 提升 分 
异常 行为 。 基 于 统计 分 析 的 恶意 请 求 检测 技术 可 以 自 适 应 学 。 类 性 能 ， 挖 气 HTTP 请 求 不 同 尺度 特征 之 间 的 互补 特性 ， 提 
习 用 户 的 行为 ， 但 也 容易 被 攻击 者 绕 过 ， 并 且 不 恰当 的 阔 值 ”出 基于 多 尺度 特征 融合 的 恶意 HTTP 请 求 检测 方法 。 该 方法 
可 能 会 导致 大 量 漏 报 、 误 报 产生 。 汪 生 等 人 馈 首 先 使 用 模 灯 从 单词 级 和 字符 级 两 个 尺度 对 HTTP 请 求 进行 建 模 ， 使 用 


SVM 对 原始 流量 数据 进行 粗 二 分 类 ， 接 着 将 攻击 样本 采用 ”CNN 分 别提 取 单 词 级 和 字符 级 高 阶 语义 特征 , 然后 通过 语义 
DBscan 模型 再 次 进行 细 粒 度 的 多 类 别 聚 类 , 从 而 得 到 攻击 样 ” 特征 融合 子 网 络 学 习 请 求 的 多 尺度 公共 向 量 表示 并 最 终 用 于 
本 的 具体 类 别 。Smitha 等 人 欠 使 用 一 系列 机 器 学 习 算 法 ， 结 ” 线性 分 类 器 分 类 。 实 验 结果 表明 该 方法 的 分 类 性 能 优 于 现 有 
合 最 小 见 余 最 大 相关 性 (mRMR) 特 征 选 择 策略 ， 在 HTTP 方法， 并且 能 够 学 习 到 有 表达 力 和 判别 力 的 HTTP 请 求 多 尺 
CSIC 2010 数据 集 四 上 取得 了 不 错 的 检测 效果 。 虽 然 机 器 学 。 ” 度 公 共 向 量 表示 。 
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巫 家 宏 ， 等 : 基于 多 尺度 特征 融合 的 恶意 HTTP 请 求 检测 方法 


1 ”基于 多 尺度 特征 融合 的 恶意 HTTP 请 求 检测 方法 


本 文 将 HTTP 请 求 样 本 视 为 含 
自然 语言 处 理 (natural language process, NLP) 中 文本 分 类 
时 结合 多 模 态 学 习 (multimodal learning) 技 术 ， 提 出 


利 
思路 ， 同 


定语 义 的 文本 字符 串 ， 


请 求 进行 单词 级 的 分 词 


值 对 
的 键 与 值 之 间 1 


及 划 


组 成 ,每 个 键 值 对 之 癌 
符号 “=” 连 接 。 


处 理 。 


ChinaXiv 合 作 期 刊 


第 38 卷 第 3 期 


请 求 查询 字符 串 一 般 由 若干 键 


由 符号 “&” 分 隔 , 而 每 个 键 值 对 


了 一 种 基于 多 尺度 特征 融合 的 恶意 HTTP 请 求 检 测 方法 。 


多 


体 框架 如 


1 所 示 ， 


本 向 量化 模块 ， 分 别 得 到 HTTP 请 求 的 单词 
量 表示 ; b) 语义 特征 提取 模块 , 使 用 CNN 进 


主要 


四 个 部 分 组 成 : a) HTTP 请 求 文 
级 与 字符 级 的 向 


多 个 全 连 
不 同 尺度 
模块 , 使 用 softmax 


Xx 


请 求 向 量 表示 中 的 高 阶 语义 特征 ; c) 语义 特 生 


步 提 取 HTTP 
E 融 合 模块 ， 由 


线性 分 类 器 计算 分 类 结果 , 即将 HTTP 请 


求 样本 分 类 为 恶意 或 正常 。 


Fig. 1 
HTTP 请 求 文 本 向 量化 
一 个 完整 的 HTTP 请 求 


1.1 


图 1 总 体 框架 
Overview of the framework 
请 求 头 部 、 空 行 、 


构成 ， 本 文中 只 提取 HTTP 请 求 头 部 中 的 URL 


消息 体 进 行 检测 ， 


string)”， 用 它 来 代表 整个 HTTP 请 求 样本 。 
数字 、 特 殊 符 号 组 成 ， 它 通常 具有 这 样 


股 由 大 小 写字 母 、 
的 键 值 对 结构 : 


称 > Ar 日 


为 “请 求 查询 


接 层 组 成 ， 将 HTTP 请 求 的 单词 级 与 字符 级 这 两 种 
的 高 阶 语义 特征 映射 到 一 个 公共 向 量 空间 ; d) 分 类 


他 特殊 符号 为 分 隔 


词 和 符号 序列 。 例 如 ， 


后 得 至 


“auth 


例 都 进行 单词 级 分 词 处 


词 表 示 为 
hot 编码 计算 简单 ， 


2) 向 量化 
传统 


or”, “Tan”, “Ah”, 


里 后 ,得 到 此 数 


丸 此 ， 


可 以 以 “并轨 6 一 2 


符 ， 将 请 求 查询 字符 串 划分 为 若干 音 


区 


的 文本 向 量化 方法 如 One-hot 编码 ， 可 以 将 每 个 单 
只 有 一 个 元 素 为 1, 其 余 元 素 为 0 


2 中 的 请 求 样 例 经 单词 级 分 词 处 理 
| 序列 (“doc”, “test”, “html”, “bookID”,“12345”， 

“Teck”)。 将 数据 集中 所 有 请 求 样 
BR 集 的 单词 级 语料库 。 


的 稀疏 向 量 。One- 


定 程度 上 对 特 


E 进 行 


了 扩充 ; 然而 ， 它 


请 求 消息 体 
路 径 及 请 求 


字 侍 串 (request query 


请 求 查 询 字符 串 


/path?keyl=valuel &key2=value2&key3=value3... 


从 中 提取 出 


的 关键 信息 。 


Request 
Message 
Header 


以 图 2 所 示 的 HTTP 请 求 为 例 ， 本 文 方法 只 
请 求 查 询 字 符 串 “doc/test.html?bookID=12345&author= 
Tan+Ah+7Teck”, 因为 它 已 经 包含 了 该 HITP 请 求 

POST /doc/test.html HTTP/1.1 Requcst Line 

Host: www.test101.com 

Accept: image/gif, image/jpeg, */* 

Accept-language: en-us Roquest Header 

Accept-Encoding: gzip, deflate 

User-Agent: Mozilla/4.0 

Content-Length: 35 

A blank line 


bookId=12345&author=Tan+Ah+Teck 


图 2 HTTP 请 求 样 例 


Request Message Body 


Fig.2 Example of HTTP request 
请 求 查 询 字符 串 中 各 种 字符 的 使 用 和 出 现 顺序 往往 隐 含 
了 一 定 的 语义 信息 ， 能 够 直接 反映 请 求 发 起 者 的 意图 ， 对 检 
测 结 果 起 决定 性 人 作用。 例如， 请 求 查询 字符 串 
“getpage.php?home=../etc/passwd ”是 一 个 典型 目录 遍历 攻击 ， 


天 


则 构成 了 一 个 SQL 


为 它 企 图 访问 服务 器 中 “etc/passwd ”这 一 与 上 
相关 的 路 径 ;“vciarjsp?B2=Vacar+%27%3B1 
usuariot+SELECT+*+FROM+dato+ WHERE+nombret+LIKE ” 
为 它 企图 修改 服务 器 数据 


库 ， 非 法 获取 敏感 数据 。 自然 语言 处 理 中 的 久 


注入 


攻击 ， 因 
忆 此 ， 使 用 


] 户 密码 存储 
HDROP+TABLE+ 


经 


网 络 语言 模型 来 无 监督 地 学 习 HTTP 请 求 中 的 这 些 语 义 信息 ， 


并 将 其 向 量化 ， 方 便 


表示 学 习 方法 。 


后 续 进 行进 


1.1.1 HTTP 请 求 的 单词 级 向 量 表示 


1) 分 词 


要 获得 HTTP 请 求 的 单词 级 问 量 表示 ， 


并 没有 考 
立 的， 无 法 表达 不 同 单 
规模 很 大 时 还 会 产生 维 
语言 


基于 分 布 


境 中 


虑 单词 与 单词 


> 间 
词组 


的 联系 ， 
合 所 蕴涵 的 语义 信息 。 当 语 料 
度 爆 炸 问题 。 


处 理 领 域 较为 常用 


且 有 


腿 设 理论 ， 不 
会 有 相似 的 语义 ， 


效 的 文本 向 量 
司 的 单词 如 果 出 现在 相同 的 上 下 文 环 


即 


相似 语义 也 


任意 两 个 单词 之 间 是 孤 


word2vecUD 是 当 


库 


前 自然 
化 技术 。word2vec 


单词 的 向 量 表示 之 


间 的 距离 比较 小 ， 单 词 


来 表达 。 


之 间 的 关系 可 以 用 


HTTP 请 求 文 本 与 


义 信 


gram 模型 | 
到 的 词 向 量 
HTTP 请 求 检 测 这 一 任务 中 本 文采 用 
HTTP 请 求 的 向 量 表 示 。 
具体 地 ， 首 先 以 步骤 1) 构 造 的 单词 
型 训练 出 一 个 单词 级 的 语言 模型 ; 
在 这 个 单词 级 语言 模 
将 HTTP 请 求 样 本 中 


使 用 skip-gram 模 玫 
HTTP 请 求 样本 中 的 每 个 单词 ， 找 到 其 
型 中 对 应 的 单词 级 词 租 入 (embedding); 


普通 文本 字符 串 类 似 ， 其 
息 同 样 可 以 使 用 word2vec 来 捕 


目标 


词 预 测 其 上 下 文 


与 其 


ul 


的 每 个 单词 的 单词 级 词 嵌 入 纵向 | 


HTTP 请 求 的 单词 级 二 维 向 量 表示 。 


也 语言 模型 相 比 更 加 淮 
Skip-gram 模型 来 学 习 


其 向 量 表示 的 运算 


中 蕴涵 的 语 


获 。word2vec 中 的 skip- 


单词 


E 确 ， 


bt 现 的 概率 , 训练 得 
因此 ， 在 恶意 


级 语料库 作为 输入 ， 


对 于 


1.1.2 HTTP 请 求 的 字符 级 向 量 表示 


HTTP 请 求 进 


1) 分 词 


佳 登 起 来 ， 则 得 到 整个 


要 获得 HTTP 请 求 文本 的 字符 级 向 量 表示 ， 首 先 要 将 


分 词 只 需要 简单 


区 


Ee 
» 


CR Ee 


©€,，, C 


级 分 词 处 理 后 ， 得 到 此 


以 字符 级 语料库 作为 输入 ， 训 
对 于 HTTP 请 求 样本 中 的 每 


2) 向 量化 
HTTP 请 求 的 字符 


的 每 个 字符 的 字符 级 词 散 入 纵 
HTTP 请 求 的 字符 级 二 维 向 量 表示 。 


1.2 


多 个 不 同 
近 些 匀 


步 高 阶 特征 提取 及 分 类 任 
务 。 接 下 来 分 别 介绍 HTTP 请 求 文本 的 单词 级 和 字符 级 向 量 


先 要 将 HTTP 


文本 分 类 但 


语义 特征 提取 


行 字符 级 的 分 词 处 
也 将 请 求 查询 字符 串 
组 成 的 序列 。 例 如 ， 民 
处 理 后 得 到 序列 (“d”， 
，“")。 将 数 


E。 与 单词 级 分 词 不 同 ， 字 


将 划分 为 单个 字符 


2 中 的 HTTP 请 求 样 例 经 字符 级 分 词 
“0 C2 “2” ee” 区 A “hn 
集中 所 有 请 求 样 例 都 进行 字符 


数据 集 的 字符 级 语料库 。 


级 向 量化 与 单词 级 向 量化 类 似 。 首 先 


人 人心 


辣子 付 ， 


| 练 出 


一 个 字符 级 的 语言 模型 ; 
找到 其 在 这 个 字符 级 语 


字符 级 词 嵌 入 ， 将 请 求 查询 字符 串 中 


向 堆 


车 起 来 ， 则 得 到 


整个 


CNN 是 大 多 数 计算 机 视觉 系统 的 核心 技术 , 它 通 过 使 用 


名 


与 


的 CNN 模型 , 用 来 进 


构 如 


尺度 的 卷 积 核 来 提取 
FE 来， CNN 在 自然 语言 处 理 
意 HTTP 请 求 检测 也 可 以 被 视 为 


名 


像 像素 之 间 的 
领域 也 作出 了 


局 部 相关 性 。 
巨大 贡献 。 恶 


然 语 言 


处 理 中 一 种 特殊 的 


E 务 。HTTP 请 求 的 单词 级 和 字符 级 


维 向 量 表 示 


像 的 像素 矩阵 类 似 , 受 文献 [12] 的 启发 , 本 文 构建 了 特殊 


图 3 所 示 , 它 主 要 包含 4 个 卷 积 
向 量 表 示 时 ， 有 3 个 卷 积 


步 从 中 提取 高 阶 语义 特征 。 其 模型 结 
层 ( 当 模型 输入 为 单词 级 


层 ) 和 1 个 全 连接 层 。 
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录用 


符 级 
数 激 ; 
请 求 对 应 | 
第 一 个 卷 积 层 
的 向 量 表示 的 维 
求 文本 的 二 维 F 
是 保证 


atic feature extraction network 
的 输入 是 HTTP 请 求 
维 向 量 表示 , 对 每 个 卷 积 
了 最 大 池 化 ， 最 后 的 全 连接 层 输出 每 个 HTTP 
佳 的 原始 高 阶 语 义 特 得 


Fig.3 Architecture of sem 


: 基于 多 尺度 特征 融合 的 恶意 HTTP 请 求 检 测 方法 


义 特 征 向 
尔 伯 特 空 
1.4.2 公共 空间 损失 
为 了 
的 向 量 表示 更 力 


TS 


其 中 Ww 为 HTTP 请 求 的 单词 级 语义 特 生 
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字符 级 语 


fb() 为 映射 函数 , 用 了 


有 


区 分 度 ， 参 考 文献 [10]， 本 


量 在 公共 


愉 


1 ua 
党 = 2 (og(l+ ew) -Sy a 
i 


的 卷 积 核 宽 度 与 HTTP 请 求 


< 分 别 是 单词 级 和 字 


TY (log(l+ em )- Sy0,,) 
Hija . 


其 中 Tj;=12cos(w,c;)， 


将 原始 向 量 映射 到 再 生 希 


子 空间 中 ， 相 同类 别 的 HTTP 请 求 
司 类 别 HTTP 请 求 的 向 量 表示 更 
空间 损失 6 直接 度 
的 所 有 请 求 样本 的 判别 损 


Ww 


2 (log(l+es ')-—Sy 从 让 二 


2) 


， 0;;=1/2cos(c,c))，w 和 和 


级 HTTP 请 求 在 公共 子 空间 中 对 应 的 


重 直 方向 滑动 遍历 。 这 样 做 的 
才 的 最 小 粒度 为 单词 级 或 


并 且 能 捕 
gram” 特 征 


之 间 蕴 涵 的 类 似 “N- 


句 量 表示 ;ecos( 计算 两 个 向 晶 ; 人 是 一 


之 间 的 余弦 相似 有 


国 


个 指示 函数 ， 当 w 和， 为 类 别 相同 的 公共 子 空间 向 量 表示 时 
值 为 1， 否 则 为 0。 式 (2) 中 第 


外 ， 宽 通道 可 以 让 每 个 卷 积 层 学 


习 到 更 加 
1.3 语义 特征 融合 

HTTP 请 求 的 单词 级 向 量 表示 和 
述 同 一 个 HTTP 请 求 村 


角 


的 


E， 增 强 模 型 的 表达 能 力 。 


字符 级 向 量 表示 从 不 同 


请 求 下 
能 


接 或 直接 可 


向 


请 求 单 词 级 和 


常见 的 特征 级 融合 方法 如 类 
FE 简单 高 效 ， 但 作用 
丢失 。 借 鉴 多 模 态 学 
量 表示 的 互补 性 ， 去 除 它们 之 间 的 了 


度 的 公共 


句 量 表示 的 相似 度 ， 第 二 项 衡量 所 有 自 向 量 表示 的 


相似 度 ， 第 三 项 衡量 所 有 
此 , 公共 空间 损失 5 可 以 合理 
字符 级 语义 特征 
的 相似 度 。 

1.4.3 分 类 损失 
本 文 使 用 分 类 问题 中 人 
果 ， 可 以 定义 为 

L = CrossEntropy(y,b,)+ CrossEntropy(y,b.) 


其 中 CrossEntropy(-) 为 交叉 炉 损失 函数 ，> 为 档 


公共 向 量 表 示 的 相似 度 。 医 
计算 HTTP 请 求 的 单词 级 和 
E 经 公共 向 量子 空间 映射 得 到 的 公共 向 量 表示 


的 交叉 灶 损 失 来 衔 


、 


Ps 为 单词 级 公共 向 划 


余 性 ， 可 以 学 习 到 更 有 表达 力 和 判别 力 的 多 尺度 向 
获得 更 好 的 检测 结果 。 
本 文 提出 的 语义 特 和 
目的 是 使 1.2 节 
高 阶 语义 特 和 
使 得 这 两 种 语义 特 行 
种 不 同 尺度 的 语义 特征 
门 共享 全 连接 层 的 权 值 


尽 可 能 趋 于 一 致 。 


将 这 有 两 


相关 损失 函数 ， 最 小 化 属于 相 


司 类 别 (恶意 或 了 


尺度 的 语义 特征 向 量 之 间 的 嚼 


方法 在 模型 训练 阶段 有 三 个 训练 
级 与 字符 级 高 阶 语义 特征 ; 
类 别 的 HTTP 请 求 的 向 量 表示 更 
HTTP 请 求 的 类 别 标签 。 本 文 个 
进行 联合 优化 学 习 。 
1.4.1 多 尺度 不 变 ， 


度 但 相同 类 别 的 月 


分 布 之 间 


司 时 最 大 化 属于 不 同类 
1.4 目标 函数 


征 向 量 之 间 的 距离 。 


征 融合 的 恶意 HTTP 请 求 检测 
标 : a) HTTP 请 求 的 单词 
个 使 得 来 自 不 同 尺度 但 相同 
接近 的 公共 向 量子 空间 ，c) 


得 令 人 满意 的 和 


标签 ， p. 字符 级 公共 向 量 表示 预测 的 档 
结合 公式 (1)~(3)， 得 到 了 最 终 的 


其 中 超 参数 4 和 7 为 损失 权 习 
化 公式 (4)。 
2 ”实验 结果 与 分 析 


在 本 章 从 以 下 三 个 4 
合 的 恶意 HTTP 请 求 检 疯 


EE 系数 。 最 后 使 月 


I 方法 进行 评测 ，1) 本 方法 


最 终 的 分 类 效 


G3) 


本 真正 的 标签 ， 
分 类 器 计算 后 预测 的 样本 


(4) 


月 Adam 算法 优 


于 
度 特 征 融 


的 能 否 取 


能 表现 ， 特 别 是 在 真实 网 络 环境 下 ? 2) 本 方 


三 个 不 同 损失 函数 对 它们 


寺 征 的 不 变性 ， 需 要 最 小 化 来 自 
了 HTTP 请 求 样 本 的 向 量 表示 之 间 的 距离 。 
] MMD(Maximum Mean Discrepancy， 最 大 
均值 差异 ) 来 最 小 化 HTTP 请 求 
的 距离 ,以 消除 这 两 种 


正之 间 的 差异 。MMD 


损失 


次 。 


或 适应 (Domain adaptiom) 中 广泛 使 用 的 
函数 ， 它 度量 在 再 
因此 ，HTTP 请 求 

MMD 多 尺度 间 不 变性 损失 £1 可 


4 = DpW) -DGC 


和 词 级 和 字符 级 的 高 阶 语义 特征 包 


法 中 训练 过 程 使 用 

能 否 从 HTTP 请 求学 习 到 有 

2.1 数据 集 

2.1.1 HTTP CSIC 2010 数据 集 
HTTP CSIC 2010 数据 外 

信息 安全 研究 所 编 

25000 条 恶意 HTTP 请 求 样本 组 


FE 如 何 ?3) 本 方法 
E 及 向 量 表 示 ? 


入 、 文 伯 


行为 等 多 种 攻击 > 
是 恶意 请 求 检 测 
2.1.2 WAF 真实 数据 外 

为 了 进一步 验证 本 文 提 出 
和 通用 性 ， 本 文 还 在 WAF 


西班牙 研究 委员 会 (CSIC) 
正常 HTTP 请 求 样本 和 
， 它 包含 如 SQL 注 
窜改 、 非 法 用 户 
则 试 网 络 攻击 保护 系统 ， 


络 安全 研究 人 员 从 
经 过 数据 清洲 


的 方法 在 现实 场景 中 的 有 效 性 
ll 试 。 它 由 网 
发 布 在 Github 上 。 
随机 选择 50000 条 
请 求 样本 和 46938 恶意 HTTP 请 求 样本 构造 数 和 
2.2 评价 指标 


常 HTTP 


o 


本 文 使 用 
化 分 析 ， 分 别 


有 的 几 个 评价 指标 进行 量 
报 率 (False positive rate，FPR)， 召 回 率 
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(true positive rate，TPR)， 准 确 率 (accuracy，ACC)。 2.5 ”消融 实验 
2.3 ”对 比方 法 于 HTTP CSIC 2010 数据 集 是 人 工 构 造 出 来 的 ， 同 时 
本 文 将 所 提出 方法 分 别 与 当前 领域 中 较 新 旦 效果 较 好 的 。” 包含 一 些 拉 丁字 符 ， 与 当前 网 络 环境 中 的 攻击 流量 有 一 定 差 
方法 进行 对 比分 析 。 具 体 描述 如 下 : 距 。 为 了 验证 本 方法 在 现实 网 络 环境 中 的 表现 ， 余 下 实验 评 
a) SVM/LR 和 由 。 基 于 SVMVLR 的 Web 入 侵 检测 方法 使。 测 都 在 WAF 真实 流量 数据 集 上 进行 。 
用 mRMR 进行 特征 提取 。 2.5.1 多 尺度 公共 向 量 表示 有 效 性 分 析 
b) C4.504。 基 于 词 频 的 决策 树 模 型 ， 并 且 使 用 了 HTTP 本 文 从 单词 级 和 字符 级 两 个 尺度 对 HTTP 请 求 进行 建 模 
请 求 中 的 长 度 、 特 殊 表 达 式 作为 特征 。 并 且 在 训练 过 程 中 对 这 两 个 尺度 的 语义 特征 进行 联合 学 习 ， 
cjRE05。 正 则 匹配 异常 检测 模型 ， 使 用 图 分 制 和 动态 规 。 得 到 HTTP 请 求 在 公共 向 量子 空间 的 多 尺度 公共 向 量 表示 。 
划 技 术 来 获取 正则 表达 式 。 为 了 验证 其 有 效 性 ， 本 实验 中 将 模型 分 解 ， 构 造 了 三 个 模型 
d)FSWAF09。 一 个 WAF 系统 ,基于 关联 性 分 析 和 mRMR 变 体 : W-CNN( 只 使 用 单词 级 请 求 向 量 表示 )、C-CNN( 只 使 用 
进行 特征 选择 ， 并 使 用 多 个 机 器 学 习 分 类 器 进行 分 类 。 字符 级 请 求 向 量 表示 )、WC-CNN( 将 单词 级 和 字符 级 请 求 向 
e) Word-CNNTl。 单 词 级 CNN 模型 ,使 用 Embedding 层 。 量 表示 直接 相 加 ), 与 本 文 方法 在 WAF 真实 数据 集 进行 对 比 。 
随机 初始 化 HTTP 请 求 的 单词 级 向 量 表示 ， 并 在 训练 过 程 中 表 2 所 示 的 消融 实验 结果 可 以 看 出 : W-CNN 性 能 最 差 , 可 
更 新 。 能 是 由 于 以 “&”“=” 等 符号 作为 分 隔 符 的 分 词 的 策略 比较 
人 AB-LSTM/AB-GRU[S1。 基于 LSTM/GRU, 首先 只 使 用 粗糙， 对 HTTP 请 求 文本 进行 了 不 合理 的 切割 ， 导 致 学习 到 
正常 HTTP 请 求 进行 无 监督 训练 ， 然 后 再 用 LSTM/GRU 的 的 单词 级 向 量 表示 不 够 准确 ; W-CNN 和 C-CNN 这 两 个 只 利 
输出 训练 一 个 分 类 器 。 用 了 单一 尺度 语义 信息 的 模型 总 体 来 说 性 能 不 如 其 他 两 个 利 
g) PL-LSTM B31。 端 到 端的 基于 LSTM 的 恶意 请 求 检测 方 用 多 个 尺度 语义 信息 的 模型 ; WC-CNN 将 HTTP 请 求 的 两 种 
法 ， 使 用 了 预 训练 的 字符 级 向 量 表示 。 尺度 的 向 量 表示 简单 相 加 ， 综 合 一 部 分 路 尺度 语义 信息 ， 但 
2.4 _ HTTP CSIC 2010 数据 集结 果 与 对 比 不 同 尺度 特征 之 间 没 有 产生 交互 ， 丢 失 了 一 部 分 各 个 尺度 特 
本 方法 及 基线 方法 在 HITP CSIC 2010 数据 集 上 的 实验 。 有 的 语义 信息 。 而 本 文 方法 同时 从 单词 级 和 字符 级 两 个 尺度 
结果 如 表 1 所 示 。 由 于 这 些 基线 方法 没有 公布 源 代码 ， 也 不 ”对 HITTP 请 求 进行 建 模 ， 并 且 在 训练 过 程 中 将 两 个 尺度 特征 
知道 它们 训练 与 测试 时 的 数据 划分 情况 ， 因 此 ， 本 文 统一 汇 。 进行 了 有 效 的 交互 和 融合 ， 学 习 到 HTTP 请 求 的 多 尺度 公共 


BB ， 前 五 个 基于 机 器 学 习 的 方法 取得 比较 接近 的 效果 ; 而 基 率 只 有 0.03%， 召回 率 达 到 99.92%， 准 确 率 达到 99.95%。 这 


报 这 些 基线 方法 在 其 原始 论文 中 的 最 佳 结果 。 从 表 1 可 以 看 。 向 量 表示 , 在 WAF 真实 数据 集 取得 了 最 好 的 分 类 性 能 : 误 报 


于 词 嵌 入 的 深度 学 习 方 法 ,如 PL-LSTM,AB-LSTM,AB-GRU  ” 样 的 表现 也 充分 说 明了 本 文 方法 对 复杂 的 真实 网 络 攻击 有 
及 本 方法 性 能 均 优 于 机 器 学 习 方 法 ， 这 说 明了 词典 入 能 够 从 ”好 的 泛 用 性 和 和 鲁 棒 性 , 可 以 在 真实 生产 环境 中 发 挥 重要 作用 。 
HTTP 请 求 中 捕获 有 效 的 语义 信息 。 在 几 个 基于 深度 学 习 的 表 2 不 同 尺度 向 量 表 示 在 WAF 真实 数据 集 的 结果 
方法 中 ，Word-CNN 的 性 能 明显 差 于 其 他 方法 ， 主 要 原因 是 Tab.2 Performance of different modal representation on WAF dataset 
天 为 它 使 用 的 HTTP 请 求 的 向 量 表示 是 随机 生成 的 ， 这 其 中 Method FPR TPR ACC 
并 没有 包含 关于 HTTP 请 求 的 先 验 知识 。AB-LSTM 和 AB- W-CNN 0.48 97.44 98.52 
GRU 由 于 使 用 了 预 训 练 的 单词 级 请 求 词 嵌入 , 并 且 在 训练 过 C-CNN 0.06 99.92 99.91 
程 对 其 进行 优化 更 新 ， 因 此 性 能 优 于 在 训练 过 程 中 固定 权重 WC-CNN 0.07 99.93 99.93 
的 PL-LSTM。 本 文 方法 0.03 99.94 99.95 

表 1 在 HTTP CSIC 2010 数据 集 的 结果 2.5.2 损失 函数 有 效 性 分 析 
Tab. 1 Performance on HTTP CSIC 2010 dataset 本 文 在 训练 过 程 中 使 用 了 三 个 损失 函数 对 模型 进行 联合 
Method FPR TPR ACC 优化 学 习 ， 使 得 不 同 尺度 但 相同 类 别 的 HTTP 请 求 的 向 量 
C4.5 - 96.3 96.26 示 更 加 接近 。 本 节 进 一 步 评测 和 分 析 各 个 损失 函数 对 模型 性 
SVM - 95 97 能 的 影响 , 构造 了 本 文 方法 的 变 体 : V1( 不 使 用 多 尺度 不 变 损 
LR - 97 92 失 L1)、V2( 不 使 用 公共 空间 损失 L2)， 及 V3( 使 用 全 部 损失 
FSWAF 2.15 98.02 EF 函数 ), 它 们 在 WAF 数据 集 上 表现 如 表 3 所 示 。 可 以 观察 到 ， 
RE 4.34 94.46 - 当 使 用 全 部 三 个 损失 函数 时 取得 最 好 的 性 能 ， 这 意味 着 它们 
Word-CNN 1.37 93.35 96.49 都 对 最 终 的 检测 结果 有 贡献 。V3 各 个 指标 都 领先 V1， 证明 
PL-LSTM 97.79 96.13 多 尺度 不 变性 损失 Ll 能 够 有 效 消除 不 同 尺度 特征 间 的 差异 。 
AB-LSTM 0.79 97.56 98.42 V2 稍 差 于 V3, 证 明 公 共 空 间 损 失 L2 对 于 融合 多 尺度 语义 特征 
AB-GRU 1.55 97.2 97.88 的 重要 性 。 以 上 结果 和 分 析 表 明 ， 这 三 个 损失 函数 对 于 融合 不 
本 文 方法 0.20 98.65 99.34 同 尺度 HTTP 请 求 的 向 量 表示 ， 提 高 分 类 性 能 确实 有 效 。 
本 文 提出 的 方法 在 不 依赖 专家 知识 和 不 需要 人 工 提取 特 表 3 各 损失 函数 在 WAF 真实 数据 集 的 结 
征 的 情况 下 ， 人 性 能 优 于 所 有 基线 方法 ， 准 确 率 达到 99.34%， Tab.3 Performance comparison ofloss functions on WAF dataset 
召回 率 达 到 98.65%， 而 误 报 率 只 有 0.2%。 本 文 方法 之 所 以 Method FPR TPR ACC 
有 效 主 要 有 两 个 方面 的 原因 : 1) 使 用 Skip-gram 语言 模型 从 V1 0.05 99.91 99.93 
单词 级 和 字符 级 两 个 尺度 对 HTTP 请 求 进行 建 模 ， 能 够 有 效 V2 0.04 99.93 99.94 
地 保留 HTTP 请 求 中 隐 含 的 丰富 的 语义 信息 ; 2) 构造 的 语义 V3 0.03 99.94 99.95 
特征 提取 子 网 络 和 语义 特征 融合 子 网 络 能 够 有 效 地 提取 ”2.6 多 尺度 公共 向 量 表示 可 视 化 
HTTP 请 求 的 单词 级 和 字符 级 高 阶 语义 特征 ， 并 且 通 过 多 尺 为 了 直观 地 观察 本 文 方法 学 习 到 的 HTTP 请 求 的 多 尺度 
度 特征 融合 的 方式 得 到 更 有 表达 力 和 判别 力 的 HTTP 请 求 公 公共 向 量 表 示 是 否 具 有 区 分 度 , 本 节 使 用 tSNEI7 将 WAF 真 


共 向 量 表示 。 实数 据 集 的 测试 集 样本 映射 到 二 维 向 量 空 间 并 可 视 化 ， 如 
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4 所 示 。 可 以 观察 到 ， 恶 意 请 求 样 本 与 正常 请 求 样本 明显 地 
区 分 开 来 ， 绝 大 部 分 恶意 请 求 样本 分 布 在 图 的 中 部 ， 正 常 请 
求 样 本 分 布 在 图 的 四 周 ， 只 有 少数 几 个 恶意 请 求 样本 与 正常 
请 求 样 本 重用 。 这 充分 说 明 本 文 提出 方法 能 够 学 习 到 具有 良 
好 的 表达 力 和 判别 力 的 HTTP 请 求 多 尺度 公共 向 量 表示 ， 进 
而 提高 分 类 性 能 。 
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图 4 多 尺度 公共 向 量 表示 可 视 化 


Fig.4 Visualization of multiscale representation 
3 ”结束 语 


本 文 提出 了 基于 多 尺度 特征 融合 的 恶意 HTTP 请 求 检测 
方法 ， 将 HTTP 请 求 视 作 具有 一 定语 义 的 字符 串 ， 从 单词 级 
和 字符 级 两 个 尺度 对 HTTP 请 求 文本 进行 建 模 ,使 用 CNN 提 
取 高 阶 语义 特征 后 ， 再 通过 多 尺度 特征 融合 技术 学 习 其 多 尺 
度 公共 向 量 表示 ， 最 终 用 于 分 类 检测 。 多 个 对 比 实验 表明 ， 
本 文 提出 方法 在 HTTP CSIC 2010 数据 集 和 WAEF 真实 数据 集 
上 表现 优秀 ， 同 时 能 够 学 习 到 有 判别 力 和 表达 力 的 HITP 请 
求 向 量 表 示 。 下 一 步 工作 将 继续 探讨 更 有 效 的 多 尺度 特征 融 
合 方法 ， 寻 找 性 能 更 好 的 分 类 算法 。 
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